En capítulos anteriores, hemos estudiado el cálculo de probabilidades para eventos que, en la práctica, son codificados como variables categóricas. Ahora ha llegado el momento de estudiar cómo funciona la medida de probabilidad para el caso en que la variable es cuantitativa. Empezaremos nuestro estudio con un ejemplo gráfico. En la figura 1.1 se presenta una información relacionada con el peso de hombres y mujeres.
Figura 1.1: Distribución de peso para hombres y mujeres
Cuando se les pregunta a los estudiantes sobre la interpretación de este gráfico, la mayoría de ellos genera interpretaciones acertadas de este. Veamos algunas de estas interpretaciones acertadas:
Ahora veamos una de las interpretaciones incorrectas más comunes para este mismo gráfico:
Lo cierto es que la mayoría de estudiantes conocen de alguna manera la interpretación correcta de este gráfico, ya sea por intuición o por formación previa. Lo importante es que en este capítulo aclararemos estas ideas y las formalizaremos en términos probabilísticos.
Las curvas presentadas en la figura 1.1 reciben el nombre técnico de función de densidad. Son funciones matemáticas comunes las cuales se representan en un plano cartesiano. Para repasar estos conceptos sugerimos revisar los siguientes recursos:
Es fundamental recordar los conceptos básicos alrededor de la representación de funciones en el plano cartesiano para poder comprender plenamente los conceptos aquí tratados.
De esta manera, las curvas presentadas en la 1.1 son simplemente funciones matemáticas, por ejemplo para la función de densidad de las mujeres (que de ahora en adelante denominaremos por \(f_F(x)\)), el valor de la función para el peso de \(55kg\) es de \(0.05\), es decir: \(f_F(55)=0.05\). De manera similar, para la función de densidad de los hombres (que de ahora en adelante denominaremos por \(f_M(x)\)), el valor de la función para el peso de \(55kg\) es de \(0.015\), es decir: \(f_M(55)=0.015\).
La pregunta fundamental que surge a continuación es “¿qué significa el valor \(f(x)\)?” en donde \(f\) es una función de densidad? Dicho también de otro modo, en una primera aproximación de los estudiantes al gráfico de la figura 1.1, “¿Que significa el eje \(y\) en la figura 1.1?”. Esta pregunta se responde de manera mucho más fácil cuando se estudian funciones de densidad para variables discretas.
Empezaremos esta discusión con el siguiente ejemplo. Considérese la variable “Número de hijos en un matrimonio”. En la figura 2.1 se presenta la función de densidad para esta variable.
Figura 2.1: Función de densidad para la variable número de hijos
Para facilidad del lector, en la gráfica aparecen las coordenadas \((x,f(x))\), en donde \(x\) es el número de hijos y \(f(x)\) es el valor de la función de densidad respectiva. En el caso en el que la variable es discreta, la función de densidad resulta coincidir con la probabilidad. Es decir que la probabilidad de que el matrimonio no tenga hijos es de 0.05. El lector puede verificar que en efecto los valores de \(f(x)\) son probabilidades, ya que al sumar todos los 12 valores el resultado es uno. Es decir \(\sum_{i=0}^{11} f(x_i)=1\) (Lo invitamos a repasar el significado del símbolo \(\sum\) visitando el siguiente recurso: https://www.profesorenlinea.cl/matematica/Sumatoria.html)
Es decir que en el caso en que la variable es discreta se tiene que
\[\begin{equation} Si\; x\; es \; una \; variable \; discreta\; entonces \; f(x)=P(X=x) \tag{2.1} \end{equation}\]
Donde \(P(X=x)\) se interpreta como “la probabilidad de que la variable \(X\) tome el valor \(x\)”. Mas adelante profundizaremos en la notación y diferencias entre \(X\) y \(x\).
Para este caso en el que la variable es discreta usted puede usar las reglas vistas en capítulos anteriores para hacer cálculos de probabilidad. Por ejemplo, preguntémonos por lo siguiente:
Esto en términos de fórmulas equivale a \(P(X<4)\). Para calcular esta probabilidad, simplemente sumamos las probabilidades de los números que cumplen la condición \(x<4\), es decir \[P(X<4)=\sum_{i=0}^{3}P(X=x_i)=\sum_{i=0}^{3}f(x_i)=\] \[0.05+0.149+0.224+0.224=0.647\]
Puede usted intuir de manera rápida como se calculara \(P(X \geq 4)\)? Haciendo uso de la regla del complemento, se tiene que \(P(X \geq 4)=1-P(X<4)=1-0.647=0.353\).
En el caso en que las variables son continuas, ya no se cumple que la ecuación (2.1). Esto es debido a la naturaleza extraña de los números reales. Para cualquier número real \(x\) sucede que \[\begin{equation} Si\; x\; es \; un \; numero \; real \; entonces \; P(X=x)=0 \tag{2.2} \end{equation}\]
La ecuación (2.2) parece contraintuitiva, sin embargo tiene sentido. Pensemos en la variable peso (medida en Kg). Cuando yo mido mi peso en una báscula obtenemos un valor como por ejemplo \(78.3\). Es claro que la variable peso es una variable continua, y al serlo sus valores son números reales, números con una expansión en decimales infinita. Pero la báscula reporta solo un decimal, esto tiene que ver con la exactitud y precesión, conceptos discutidos anteriormente. El reporte de la báscula no es relamente un numero sino un rango:
\[78.30000...., 78.39999....\] Es decir que la báscula está reportando que mi peso es un número real que se encuentra en el rango \(78.30000...., 78.39999....\). De hecho el verdadero valor de mi peso es un número real con una expansión decimal infinita que nunca llegaremos a conocer, y es debido a esa expansión en decimales infinita que la ecuación (2.2) se cumple. Cuando la variable es continua, no tiene sentido pensar en la probabilidad de que la variable tome un valor (un número real) arbitrario, tiene más sentido preguntarnos por la probabilidad de que la variable tome valores en un rango. Es decir que en vez de preguntarnos por la probabilidad de que el valor de peso sea igual a \(78.3\) (es decir \(P(X=78.3)\)), es más apropiado pensar en \(P(78.30000....<X< 78.39999....)\). La pregunta que surge a continuación es ¿cómo se calculan estas probabilidades?
Los conjuntos a los cuales medimos probabilidades en variables continuas son segmentos de recta definidos como \(x\leq 5\), \(x< 4\), \(x \ge 10\), \(x>15\), \(2<x <10\), \(-3\leq x <15\), etc. Lo invitamos a repasar los conceptos asociados a los segmentos de recta en los números reales visitando el siguiente link: https://www.matesfacil.com/ESO/numeros/intervalos/concepto/concepto-intervalo-abierto-cerrado-numeros-reales-extremos-test-online.html
Las probabilidades en este contexto resultan ser áreas bajo la función de densidad, delimitados por los segmentos de recta a los cuales se les desea calcular la probabilidad. Por ejemplo, calcularemos la probabilidad de observar pesos entre 50 y 70 en ambos sexos:
Figura 2.2: Probabilidad de peso entre 50 y 70
Las áreas bajo la curva se calculan mediante la operación integración (ver http://hyperphysics.phy-astr.gsu.edu/hbasees/integ.html).
Sea \(f_F(x)\) la función de densidad del peso de las mujeres y \(f_M(x)\) la función de densidad del peso de los hombres. Estas funciones tienen las siguientes formulas:
\[f_F(x)=\frac{1}{\sqrt{2\pi8^2}}exp\left(\frac{-(x-55)^2}{8^2}\right)\] \[f_M(x)=\frac{1}{\sqrt{2\pi12^2}}exp\left(\frac{-(x-70)^2}{12^2}\right)\] Estas son solo funciones matemáticas como por ejemplo \(f(x)=10+15x\) o \(f(x)=x^2\).
Ahora, definimos las variables aleatorias \(W_F\) y \(W_M\) como los pesos de hombres y mujeres respectivamente. Entonces
\[\begin{equation} P(50<W_F<70)=\int_{50}^{70}f_F(x)dx=0.746 \tag{2.3} \end{equation}\]
\[\begin{equation} P(50<W_M<70)=\int_{50}^{70}f_M(x)dx=0.452 \tag{2.4} \end{equation}\]
Donde \(P(50<W_F<70)\) y \(P(50<W_M<70)\) denotan simplemente la probabilidad de observar pesos entre 50 y 70 para mujeres y hombres respectivamente. Estas probabilidades corresponden a las áreas mostradas en la figura 2.2. Nótese como estas áreas tienen su notación respectiva en las fórmulas (2.3) y (2.4).
Otro tipo de cálculos son por ejemplo \(P(W_F < 45)\) o \(P(W_M>90)\)
Figura 2.3: Probabilidad de peso “menor que” y “mayor que”
Lo anterior se escribe en símbolos de integración como
\[\begin{equation} P(W_F<45)=\int_{-\infty}^{45}f_F(x)dx=0.11 \tag{2.5} \end{equation}\]
\[\begin{equation} P(W_M>90)=\int_{90}^{\infty}f_M(x)dx=0.048 \tag{2.6} \end{equation}\]
\(P(W_F<45)=0.11\) se interpreta de la siguiente forma: “11% de las mujeres tienen pesos menores a 45kg” o “la probabilidad de observar mujeres con pesos menores a 45kg es de 11%”.
De forma similar, \(P(W_M>90)=0.048\), significa que 4.8% de los hombres tienen pesos mayores a 90Kg o que la probabilidad de observar hombres con pesos mayores a 90kg es de 4.8%.
Nótese como estas áreas tienen su notación respectiva en las fórmulas (2.5) y (2.6).
\[P(50<W_M<70)=0.452\] Significaría que 45.2% de los hombres tiene pesos entre 50 y 70 o que la probabilidad de observar hombres con pesos entre 50 y 70 es de 45.2%
En base a esta información es claro que \(P(W_F >45)=1-P(W_F<45)\) y de manera similar \(P(W_M<90)=1-P(W_M>90)\). Esto se debe al aplicar la regla del complemento, vista anteriormente.
Figura 2.4: Probabilidad del complemento
Finalmente, cabe preguntarse por lo siguiente: ¿Cuánto mide el área total bajo la función de densidad? Esta área tiene su notación respectiva en términos de integrales:
\[P(-\infty<W_M<\infty)=\int_{-\infty}^{\infty}f_M(x)dx\] Es decir, la integral de menos infinito a infinito de la función de densidad \(f_M(x)\). Como es de esperarse esta área (o probabilidad) mide \(1\), de manera homologa al caso del axioma 2 de probabilidad visto anteriormente. La probabilidad de observar cualquier valor posible es \(1\).
Teniendo en cuenta esto, se da uno cuenta que el área bajo las funciones de densidad \(f_F(x)\) y \(f_M(x)\) es la misma y es de \(1\). Por esta razón, se equivocan algunos estudiantes al pensar que la función de densidad \(f_F(x)\) tiene más área que \(f_M(x)\) infiriendo que hay más mujeres que hombres. Al tener ambas funciones de densidad la misma área, el grafico que hemos venido discutiendo no nos puede dar información acerca del número de hombres y mujeres.
Estas notaciones de integrales para representar el área bajo la curva son algo complicadas, las presentamos acá para dar un punto de referencia técnico, sin embargo, lo importante es lo siguiente:
Una vez entendido el concepto de funciones de densidad y de como se calculan las probabilidades como áreas bajo la curva, se puede introducir el concepto de cuantil. La idea es determinar cantidades de la variable aleatoria que acumulan cierta cantidad de probabilidad.
Retomemos el ejemplo del peso y concentrémonos solamente en la distribución del peso de las mujeres. Queremos encontrar el valor de peso \(q\) tal que \(P(W_F<q)=0.25\). Es decir que queremos encontrar un valor de peso \(q\) tal que el 25% de las mujeres tiene pesos menores a este valor.
Figura 3.1: Distribucion de peso para mujeres
En la gráfica se puede apreciar que q=50. Se dice que el 50kg es el cuantil 0.25
Se define el cuantil p como \(q_p\) tal que
\[P(X<q_p)=p\]
Donde \(X\) es una variable aleatoria cualquiera.
Figura 3.2: Definicion de cuantil
Esta vez queremos encontrar valores de la variable de interés que acumulen \(p\) de probabilidad por debajo de \(q\).
Se tiene la siguiente información:
Cual es el valor del cuantil \(q_{0.3}\)?
Solucion: \(q_{0.3}=50.80\) ya que \(P(W_F<50.80)=0.3\)
En las discusiones anteriores se ha mencionado el termino variable aleatoria, ¿Qué es exactamente? La respuesta es sencilla. La definición técnica de una variable aleatoria es compleja, pero pare efectos prácticos tomaremos la siguiente definición:
Esto quiere decir que, para una medida como el peso existen diferentes variables aleatorias. El grafico de las funciones de densidad del peso para hombres y mujeres así lo demuestra, existe una variable aleatoria de peso para mujeres y otra de peso para los hombres. El peso de los colombianos no es el mismo peso de los norte americanos. Una variable aleatoria consiste en el conjunto de posibles valores que toma la variable junto con su función de densidad.
Ahora, para referirnos a una variable aleatoria usamos letras mayúsculas. En el ejemplo del peso tenemos dos variables aleatorias diferentes: \(W_F\) y \(W_M\). para referirnos a posibles valores arbitrarios que pueden tomar estas variables aleatorias usamos letras minúsculas. Veamos un ejemplo:
\[P(W_F < x)\]
Esta expresión se traduce de la siguiente manera: La probabilidad de que la variable aleatoria peso de las mujeres (\(W_F\)) sea menor a un valor arbitrario (\(x\)).
Es fundamental la diferencia en los significados de los símbolos. Por ejemplo, en el caso de las variables aleatorias discretas habíamos verificado que
\[P(X=x)=f(x)\]
Es decir que la probabilidad de que la variable aleatoria \(X\) tome un valor arbitrario \(x\) es definida simplemente por su función de densidad \(f(x)\).
En este punto, ya está clara la representación matemática que se emplea para expresar probabilidades en el caso de variables cuantitativas (bien sean discretas o continuas). La naturaleza de los conjuntos para los cuales se calculan probabilidades son segmentos de números (reales o enteros según sea el caso). Y la forma de calcular las probabilidades es como áreas bajo la función de densidad delimitados por los segmentos de números de interés.
Es hora de hablar con mayor detalle acerca de las fórmulas matemáticas que se usan como funciones densidad. Empezaremos estudiando la función de densidad del número de hijos estudiada anteriormente. Reproducimos la gráfica a continuación, para facilidad de lectura (figura 5.1).
Figura 5.1: Función de densidad para la variable número de hijos
La fórmula de esta función de densidad es la siguiente:
\[\begin{equation} f(x)=\frac{3^x e^{-3}}{x!} \tag{5.1} \end{equation}\]
En esta fórmula, \(x\) es un posible valor arbitrario que puede tomar la variable aleatoria \(X\) (número de hijos), \(e\) es el número de oiler, \(x!\) se denomina equis factorial, esto se define como
\[n!=1\times 2 \times 3 ... \times n-1 \times n\]
Y aparece también el numero \(3\). Usted puede verificar que efectivamente al evaluar diferentes valores de \(x\) en la formula se obtienen los valores que aparecen en la figura 5.1.
El numero \(3\) es lo que se conoce como un parámetro y la formula general de la ecuación (5.1) se conoce como la función de densidad Poisson y es la siguiente:
\[\begin{equation} f(x|\lambda)=\frac{\lambda^x e^{-\lambda}}{x!} \tag{5.2} \end{equation}\]
Donde \(f(x|\lambda)\) es una nueva notación introducida, simplemente estamos definiendo que la función de densidad \(f(x)\) depende de otra cantidad, \(\lambda\) que se denomina parámetro de la función de densidad.
Veamos cual es el efecto del parámetro \(\lambda\) graficando diferentes funciones de densidad para diferentes valores de \(\lambda\).Figura 5.2: Función de densidad para diferentes valores de λ
Observando la figura 5.2, vemos que el valor de \(\lambda\) afecta la forma de la función de densidad. Este es el concepto fundamental del parámetro.
¿Puede usted describir como el parámetro \(\lambda\) controla la forma de la funcion de denisdad Poisson?
Existe otro aspecto importante de esta función de densidad y es el conjunto de valores para la cual está definida. Esta función de densidad se define para números enteros positivos. Por ejemplo, no tiene sentido pensar en \(1.5\) hijos en un hogar.
Vamos ahora a explorar la fórmula de la función de densidad normal, de la cual ya hemos visto un ejemplo, de hecho las fórmulas de las funciones de densidad para el peso de hombres y mujeres en el ejemplo tratado anteriormente pertenecen a esta clase.
La función de densidad normal se define mediante la siguiente ecuación:
\[\begin{equation} f(x|\mu, \sigma^{2})=\frac{1}{\sqrt{2\pi \sigma^2}}exp\left(\frac{-(x-\mu)^2}{\sigma^2}\right) \tag{5.3} \end{equation}\]
en esta ecuación hay dos parámetros: \(\mu\) y \(\sigma^{2}\). A continuación exploraremos la forma en que estos dos parámetros controlan la forma de la función de densidad.Figura 5.3: Diferentes funciones de densidad normal
¿Puede usted describir como los parámetros \(\mu\) y \(\sigma^2\) controlan la forma de la función de densidad Normal? Nótese finalmente, cual es el conjunto de valores para los cuales la función de densidad normal está definida: todos los números reales, tanto positivos como negativos.
Ahora estudiaremos una función de densidad que se encuentra exclusivamente definida para números reales positivos, la función de densidad gamma. Esta es su formula
\[f(x|\alpha,\beta)=\frac{1}{\beta^{\alpha}\Gamma(\alpha)}x^{\alpha-1}e^{-x/\beta}\] De nuevo, \(x\) son los valores que puede tomar la variable aleatoria, \(\alpha, \; \beta\) son parámetros, y \(\Gamma()\) (letra griega mayúscula gamma) es una función matemática especial. Esta fórmula matemática se ve complicada, a continuación presentamos algunas funciones de densidad para diferentes valores de \(\alpha, \; \beta\)
Figura 5.4: Diferentes funciones de densidad gamma
En este caso es más difícil comprender cual es el efecto de \(\alpha\) y \(\beta\) en la forma de la función de densidad.
Esta función de densidad es interesante porque está definida para números reales exclusivamente entre \(0\) y \(1\). su fórmula es
\[f(x|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\] veamos diferentes funciones de densidad para diferentes valores de \(\alpha\) y \(\beta\):
Figura 5.5: Diferentes funciones de densidad beta
Similar al caso de la función de densidad gamma, es difícil comprender cual es el efecto de \(\alpha\) y \(\beta\) en la forma de la función de densidad.
Del estudio del efecto que tienen los parámetros en la función de densidad poisson y normal queda claro que existen dos aspecto principales en la forma de una función de densidad. El primer aspecto es el de la localización, los parámetros que controlan la localización en las funciones de densidad poisson y normal son \(\lambda\) y \(\mu\) respectivamente. Estos parámetros controlan en donde se ubica la zona más “alta” de la función de densidad en el eje x (técnicamente hablando controlan en donde se presenta el mayor valor de la función de densidad en relación con el eje x).
Por otra parte, vemos como el parametro \(\sigma^2\) controla un aspecto geométrico en particular en la función de densidad normal. Controla la forma en que la función se concentra o no al rededor del parámetro de localización \(\mu\). Valores grandes de \(\sigma^2\) hacen que la curva se “aplane”, mientras que valores pequeños de \(\sigma^2\) hacen que la curva se “empine”. Recuérdese que el área bajo la curva para uno u otra función de densidad es la misma (\(1\)), sugiriendo que estos cambios de aplanamiento o empinamiento hacen que la probabilidad se distribuya de manera diferente en uno u otro caso.
Para aclarar esto, considere el siguiente ejemplo
Figura 5.6: Probabilidad de peso entre 50 y 90 para dos funciones de densidad diferentes
En la figura 5.6 las dos funciones de densidad tienen el mismo valor del parámetro \(\mu\), sin embargo, la función de densidad roja (\(f_F(w)\)) tiene el parámetro \(\sigma_F^2= 729\) mientras la negra (\(f_M(w)\)) tiene \(\sigma_M^2=144\). Para la función de densidad roja se tiene que \(P(50< W_F <90)= 0.541\) mientras que para la negra, el mismo intervalo tiene probabilidad \(P(50<W_M<90)= 0.904\). ¿En cuál de las dos funciones de densidad hay mayor incertidumbre de observar valores entre \(50\) y \(90\)? Claramente en la roja en donde \(\sigma_F^2\) es mayor.
Consideremos ahora otro enfoque. El objetivo ahora será el de encontrar un intervalo que concentre el \(90%\) de probabilidad para las dos funciones de densidad \(f_M(w)\) y \(f_F(w)\).
Figura 5.7: 90% de probabilidad
En la figura 5.7 se presentan los rangos correspondientes para cada función de densidad. Ambas áreas acumulan la misma probabilidad (90%). Sin embargo, es claro que esta probabilidad se acumula en un rango mucho más amplio en la función de densidad \(f_F(w)\), en comparación a \(f_M(w)\). Decimos entonces, que hay mayor “dispersión” en \(f_F(w)\) en comparación con \(f_M(w)\). Esta “dispersión” hace referencia a que los posibles valores que podemos observar para la variable \(W_f\) son mucho más dispersos, o tienen un rango de variación mayor en comparación con la variable \(W_M\).
En conclusión, hemos presentado como se ve el efecto de parámetros de localización y dispersión. Puede usted notar que el parámetro \(\lambda\) en la función de densidad poisson es, además de ser un parámetro de localización, también un parámetro de dispersión? (ver figura 5.2)
Como vimos en la sección anterior, dependiendo de la fórmula de la función de densidad pueden existir uno o dos parámetros y su efecto en la forma de la función de densidad también depende de la formula matemática en cada caso. Sin embargo, existen otro tipo de parámetros que, en algunos casos, no se encuentran de manera explícita en estas fórmulas. Estos parámetros, sin embargo, son calculados usando la función matemática que describe la función de densidad. Los parámetros que estudiaremos a continuación son El Valor esperado, La Moda, La Mediana, La Varianza y La Desviación Estándar.
El valor esperado de una variable aleatoria \(X\) se define como
\[\begin{equation} Valor \; Esperado \; de \; X=E(X)=\sum_{i=1}^{n}f(x_i)\times x_i \tag{6.1} \end{equation}\] En el caso de una variable aleatoria discreta y
\[\begin{equation} Valor \; Esperado \; de \; X=E(X)=\int_{-\infty}^{\infty}xf(x)dx \tag{6.2} \end{equation}\]
En el caso de una variable aleatoria continua. Estas fórmulas parecen complicadas, empezaremos nuestra exploración de este parámetro en el caso de una variable aleatoria discreta. Recuérdese que en el caso de una variable discreta \(f(x_i)=P(X=x_i)\), luego la ecuación (6.1) se puede reescribir como
\[E(X)=\sum_{i=1}^{n}f(x_i)\times x_i=\] \[\sum_{i=1}^{n}P(X=x_i) \times x_i\]
Es decir que el valor esperado para una variable discreta consiste en la suma ponderada de todos sus posibles valores multiplicados por su probabilidad. Calculemos el valor esperado para la variable número de hijos. Reproducimos la gráfica a continuación, para facilidad de lectura (figura 6.1).
Figura 6.1: Función de densidad para la variable número de hijos
Según la formula (6.1) el cálculo del valor esperado es el siguiente:
\[E(X)=\sum_{i=1}^{n}f(x_i)\times x_i=\] \[E(X)=f(0)\times 0+f(1)\times 1+f(2)\times 2+ ... +f(11)\times 11=\] \[0 \times 0.05+1 \times 0.149+2 \times 0.224+...+11 \times 0=\] \[2.999123 \approx 3\]
El cálculo de valores esperados para funciones de densidad continuas es más complejo y no será abordado aquí.
A continuación presentaremos los valores esperados para algunas funciones de densidad
Función de densidad Poisson: \[f(x|\lambda)=\frac{\lambda^x e^{-\lambda}}{x!}\] \[E(X)=\lambda\]
Función de densidad Normal: \[f(x|\mu, \sigma^{2})=\frac{1}{\sqrt{2\pi \sigma^2}}exp\left(\frac{-(x-\mu)^2}{\sigma^2}\right)\] \[E(X)=\mu\]
Función de densidad Gamma: \[f(x|\alpha,\beta)=\frac{1}{\beta^{\alpha}\Gamma(\alpha)}x^{\alpha-1}e^{-x/\beta}\] \[E(X)=\alpha \beta\]
Función de densidad Beta: \[f(x|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\] \[E(X)=\frac{\alpha}{\alpha+\beta}\]
Nótese que en el caso de las funciones de densidad Poisson y Normal, el valor esperado corresponde a un parámetro natural (\(\lambda\) y \(\mu\) respectivamente) mientras que para el caso de las distribuciones Gamma y Beta el valor esperado no corresponde exactamente a ningún parámetro natural, sin embargo se calculan en base a estos.
A continuación presentamos algunas distribuciones junto con su correspondiente valor esperado.
Figura 6.2: Valores esperados para diferentes funciones de densidad
¿Al observar la figura 6.2 que podemos decir del valor esperado?
El hecho de que para las funciones de densidad Poisson y Normal el valor esperado coincida con los parámetros \(\lambda\) y \(\mu\) nos indica que el valor esperado debe ser un parámetro de localización. La figura 6.2 confirma esta suposición, sin embargo podría usted definir que es el valor esperado? La definición técnica del valor esperado esta fuera del alcance de este curso, sin embargo, daremos una definición practica:
Esta definición indica que el valor esperado es un número que podemos ubicar en el conjunto de posibles valores de la variable aleatoria (en el eje x de los gráficos de función de densidad) y además, que las zonas en donde la función de densidad toma sus mayores valores se encuentra cerca del valor esperado (“… un valor al rededor del cual hay una alta densidad de probabilidad”).
Veamos cómo se ajusta esta definición a los gráficos de la figura 6.2.
En los gráficos A, B, C el valor esperado coincide con el parámetro natural y de hecho la función de densidad obtiene su mayor valor en ese mismo valor (el valor de las \(x\) para la cual la curva es más alta). Para las figuras D, E, F, H e I, el valor esperado no coincide exactamente con el valor de las \(x\) en donde la función de densidad obtiene su mayor valor, sin embargo, el valor esperado está bastante cerca a este valor. Finalmente, para la función de densidad de la figura G, de hecho el valor esperado se encuentra en el lugar donde la función de densidad obtiene su menor valor (donde la curva es más baja). ¿Qué sucede en este caso? Aun en este caso la definición es apropiada, si bien en el valor esperado se encuentra en el lugar en donde la curva es más baja, alrededor de él, se encuentran regiones con alta densidad de probabilidad.
El siguiente parámetro general que estudiaremos es la Moda. Su definición es la siguiente:
A continuación presentamos las modas para diferentes funciones de densidad
Figura 6.3: Modas para diferentes funciones de densidad
En los gráficos A, B, C la moda coincide con el parámetro natural, por tanto el valor esperado y la moda son el mismo valor. En las otras figuras la moda es diferente del valor esperado. El caso de la figura G es especial. Esta función de densidad tiene dos modas: el valor 0 y 1. Esto implica que la moda puede no ser única.
La definición de la mediana es la siguiente:
En términos de fórmulas se tiene que
\[Mediana \; de \; X=med(X)\] \[\begin{equation} P(X \leq med(X))=0.5\tag{6.3} \end{equation}\]
Para encontrar la mediana se debe despejar en \(x\) la ecuación \(P(X \leq x)=0.5\). Esto no siempre es fácil, y la estrategia consiste en evaluar \(P(X \leq x)\) para diferentes valor de \(x\) hasta encontrar el valor para el cual se acumula una probabilidad de 0.5, como se puede apreciar en la siguiente animación.
Figura 6.4: Determinación de la mediana
Como lo muestra la animacion, se logra la acumulacion del 50% de probabilidad cuando el valor es \(70\). Esto implica que la mediana para esta funcion de densidad es \(70\).
A continuación presentamos las medianas para diferentes funciones de densidad:
Figura 6.5: Medianas para diferentes funciones de densidad
El siguiente parámetro que estudiaremos a continuación se denomina varianza y su fórmula es la siguiente:
\[\begin{equation} Varianza \; de \; X = Var(X) = E \left[ (X- E(X))^2 \right] \tag{6.4} \end{equation}\]
Donde \(E()\) indica el valor esperado. La varianza, según la formula (6.4), es el valor esperado de la diferencia de la variable aleatoria menos su valor esperado al cuadrado. La interpretación de esta fórmula no es directa, es más fácil ver su comportamiento en un gráfico. De hecho, en la distribución normal ya nos habíamos topado con la varianza. En esta distribución, la varianza es el mismo parámetro \(\sigma^2\).
Figura 6.6: varianza (\(\sigma^2\)) en la función de densidad normal
Observando la figura 6.6 es claro que a mayor varianza, la función de densidad es más plana y la probabilidad se distribuye en un rango más amplio de valores (ver también figura 5.7).
La desviación estándar es simplemente la raíz cuadrada de la varianza, esto es:
\[\begin{equation} Desviacion \; Estandar \; de \; X = sd(X) = \sqrt{Var(X)} \tag{6.5} \end{equation}\]
La desviación estándar es más conveniente que la varianza, pues las unidades de la desviación estándar son las mismas de la variable original, mientras que las unidades de la varianza están en unidades originales al cuadrado. Por ejemplo si la varianza del peso es 729 (ver figura 5.7), esto quiere decir que este valor de varianza tiene unidades de \(kg^2\). Desde el punto de vista físico, esto es difícil de interpretar, sin embargo \(\sqrt{729 kg^2}=27kg\) seria la desviación estándar asociada, la cual tiene unidades de medida en \(kg\).
La desviación estándar, sin embargo, ofrece unas cotas mínimas en las cuales se asegura la acumulación de determinadas probabilidades. Esto es gracias a la Desigualdad de Chebychev:
\[\begin{equation} P \left(|X-E(X)|\geq k \times sd(X) \right)\leq 1/k^2 \tag{6.6} \end{equation}\]
Que es equivalente a \[\begin{equation} P \left(E(X)-k \times sd(X)\leq X \leq E(X)+k \times sd(X) \right)\geq 1-1/k^2 \tag{6.7} \end{equation}\]
En donde \(E(X)\) es el valor esperado, \(sd(X)\) es la desviación estándar y \(k\) es un numero constante positivo. En base a esta fórmula es posible decir que, por ejemplo, para cualquier variable aleatoria, no importa la forma de su función de densidad, se cumple que la probabilidad de observar valores, a más o menos 3 desviaciones estándar del valor esperado es de \(1-1/3^2=0.8888\).
Figura 6.7: Desigualdad de Chebychev
A continuación presentamos las probabilidades mínimas para diferentes valores de \(k\)
| k | PMA |
|---|---|
| 1 | 0.0000000 |
| 2 | 0.7500000 |
| 3 | 0.8888889 |
| 4 | 0.9375000 |
Donde PMA hace referencia a probabilidad mínima acumulada.
Veamos un ejemplo. Suponga que el valor esperado del peso en cierta población es de \(80kg\) y que la desviación estándar es de \(15kg\). Usando la formula (6.7) podemos dar las siguientes cotas de probabilidad para valores de k igual a 2 y 3:
\[P \left(E(X)-k \times sd(X)\leq X \leq E(X)+k \times sd(X) \right)=\] \[P \left(80-2 \times 15\leq X \leq 80+2 \times 15 \right)=\] \[P \left(50 \leq X \leq 110 \right)\geq 1-1/2^2=0.75 \]
Es decir que, para esta población, la probabilidad de observar pesos entre 50 y 110 es de al menos 75%.
\[P \left(E(X)-k \times sd(X)\leq X \leq E(X)+k \times sd(X) \right)=\] \[P \left(80-3 \times 15\leq X \leq 80+3 \times 15 \right)=\] \[P \left(35 \leq X \leq 125 \right)\geq 1-1/3^2=0.8888889 \]
Es decir que, para esta población, la probabilidad de observar pesos entre 35 y 125 es de al menos 88.89%.
Para este momento, es claro que los parámetros generales estudiados anteriormente, pueden ser clasificados como de localización y dispersión de la siguiente manera:
Parámetros generales de localización:
Parámetros generales de dispersión:
Como se puede apreciar en las figuras 6.2, 6.3 y 6.5, las funciones de densidad tienen diferentes formas. A continuación estudiaremos algunas de las formas más comunes.
Las funciones de densidad simétricas son aquellas que poseen un eje de simetría al rededor del valor esperado. Ejemplos de estas funciones de densidad se presentan a continuación:
Figura 7.1: funciones de densidad simétricas
Para estas funciones el valor esperado y la mediana coinciden en el mismo valor siempre, y en el caso en que la función de densidad es unimodal (es decir que tiene una sola moda como en el caso de las figuras 7.1 A y 7.1 B) la moda también tiene el mismo valor del valor esperado y la mediana.
Aquellas funciones de densidad, para las cuales el valor esperado y la mediana no coinciden en el mismo valor, se denominan funciones de densidad asimétricas.
Figura 7.2: funciones de densidad asimétricas
Finalmente, el ultimo tipo de forma que estudiaremos son las funciones de densidad multimodal. Estas funciones de densidad son aquellas con varias “modas” o picos en sus funciones de densidad. A continuación presentamos algunos ejemplos.
Figura 7.3: funciones de densidad multimodales
Nótese que las funciones de densidad multimodales pueden ser simétricas (figura 7.3 A ) o asimétricas (figuras 7.3 B y C). Aquellas funciones de densidad con una única moda reciben el nombre de unimodales
En la literatura, se hace referencia a las distribuciones normal, poisson, gamma, etc. Sin embargo el termino “distribución” no ha sido introducido hasta el momento. La función de distribución \(F(x)\) se define de la siguiente forma:
\[\begin{equation} F(x)=\int_{-\infty}^{x}f(x)dx =P(X<x) \tag{8.1} \end{equation}\]
Es decir que la función de distribución \(F(x)\) es la misma probabilidad de observar valores menores a \(x\), \(P(X<x)\). Esto se ilustra en la siguiente animación:
Figura 8.1: Función de densidad y función de distribución
Es bastante común referirse a las funciones de densidad como funciones de distribución, ya que desde el punto de vista matemático, son equivalentes, es decir que si se conoce una se puede conocer la otra.
De esta forma, muchos autores suelen decir cosas como “el peso medido en kilogramos en una población adulta, tiene una distribución normal”, refiriéndose al hecho de que esa variable aleatoria tiene asociada una función de densidad del tipo normal.
De ahora en adelante, al referirnos a la distribución de una variable, se entenderá implícitamente que se esta hablando de una función de densidad.
Consideramos variables categóricas, aquellas que se pueden clasificar como cualitativas o nominales u ordinales. En el apartado de probabilidad vimos de manera implícita como definir probabilidades en este tipo de variables, sin embargo, ahora definiremos de manera explicita como funcionan y se definen las funciones de densidad para estas variables.
Consideremos un primer ejemplo de una variable categórica, por ejemplo la presencia o ausencia de una enfermedad en un paciente. Los posibles valores que toma esta variable son “Pos” (presencia de la enfermedad) y “Neg” (ausencia de la enfermedad). El uso de los símbolos “Pos, Neg” es arbitrario y podríamos haber usado otros para la codificación como por ejemplo “Si, No” o “1,0”. Según hemos visto, hay tres características fundamentales de una función de densidad:
Teniendo en cuenta esto, la función de densidad para la variable “presencia o ausencia de una enfermedad” debe cumplir lo siguiente:
Puede demostrarse que en realidad \(f(Pos)=P(Pos)\) y \(f(Neg)=P(Neg)\). Es decir, la función de densidad realmente coincide con las probabilidades de los eventos “Pos” (estar enfermo) y “Neg” (no estar enfermo), respectivamente.
Surgirá, entonces la siguiente pregunta: para este escenario, la función de densidad posee parámetros? cuantos hay? cuales son? que significado o interpretación practica pueden tener?
Ya que la variable posee solo dos posibles valores, la función de densidad esta definida exclusivamente para estos dos valores. supongamos por ejemplo que \(f(Pos)=P(Pos)=0.05\). Sabes entonces que por la regla del complemento, automáticamente \(f(Neg)=P(Neg)=1-P(Pos)=1-0.05=0.95\).
Generalicemos esto para cualquier valor: supongamos que \(f(Pos)=p\) (\(p \in [0,1]\)) luego, por la regla del complemento \(f(Neg)=1-p=1-f(Pos)\). Vease la figura 9.1 para una representación grafica de esta situación.
Figura 9.1: diferentes funciones de densidad para la variable enfermedad
Con estos razonamientos, debería quedar claro que la función de densidad para una variable categórica con dos posibles valores tiene un único parámetro. Conociendo la probabilidad de “Pos” automáticamente conocemos la probabilidad de “Neg” o viceversa. En el caso en que se escoge la codificación \(0,1\) esta función de densidad es conocida con el nombre de Bernoulli.
A continuación estudiaremos el caso de una variable con tres categorías. Suponga que los operarios en una refinería de petroleo son clasificados en tres perfiles de riesgo: “Alto”, “Medio” y “Bajo”. De nuevo, para este escenario, la función de densidad de la variable coincidirá con las probabilidades de cada una de las tres categorías. Esto es \[f(Alto)=P(Alto), \; f(Medio)=P(Medio) \; y \; f(Bajo)=P(Bajo)\]
Teniendo en cuenta la restricción de
\[f(Alto)+f(Medio)+f(Bajo)=1\]
si se conoce dos de estos valores, por ejemplo \(f(Alto)=0.3\) y \(f(Medio)=0.2\) entonces por la regla del complemento, automáticamente sabemos que
\[f(Bajo)=1-(f(Alto)+f(Medio))=1-0.3-0.2=0.5\] De manera general, si \(f(Alto)=p\) y \(f(Medio)=q\) (donde \(q,p \in [0,1]\)) entonces \(f(Bajo)=1-p-q\). De esto se deduce que la función de densidad para esta variable tiene 2 parámetros.
De manera general si una variable tiene \(k\) categorías su función de densidad tiene \(k-1\) parámetros, los cuales coinciden con las probabilidades de \(k-1\) de las categorías de dicha variable.